A Precedência Lógica da Validação
A inferência estatística é intrinsecamente condicional. Qualquer conclusão que tiramos sobre um parâmetro $\theta$ está estritamente condicionada à suposição de que os dados observados $s$ foram gerados por alguma distribuição dentro do nosso modelo hipotético $\mathcal{M} = \{P_\theta : \theta \in \Theta\}$.
Estimação: Supõe que $P_{verdadeiro} \in \mathcal{M}$ e busca o "melhor" $\theta$ (por exemplo, o MLE $\hat{\theta}$). Ela opera dentro do modelo.
Verificação de Modelo: Relaxa a suposição de que o modelo é verdadeiro. Pergunta se qualquer $\theta \in \Theta$ pode explicar os padrões nos dados. Ela opera sobre do modelo.
A Crise da Relevância (Armadilha)
Se a distribuição verdadeira que gerou os dados estiver fora do modelo estatístico $\mathcal{M}$, então $\theta$ perde seu significado científico. Caímos em uma armadilha estatística: a relevância de qualquer inferência posterior torna-se questionável. Estamos essencialmente calculando as propriedades de uma ficção matemática em vez de uma realidade física.
Exemplo 9.1.1: O Modelo Normal de Localização
Considere o caso mais simples em que assumimos $X_i \sim N(\theta, 1)$.
Calculamos a média amostral $\bar{x}$. Sob o modelo Normal, $\bar{x}$ é a estimativa ótima para o 'centro' dos dados.
Suponha que os dados realmente contenham valores extremos ou sigam uma distribuição com cauda pesada distribuição de Cauchy. Embora possamos ainda calcular mecanicamente $\bar{x}$, ele já não representa mais o centro da distribuição de forma significativa. Nossos intervalos de confiança serão perigosamente estreitos, levando a uma certeza falsa porque o modelo Normal estava incorreto.